FILTER MODE ACTIVE

#Group Relative Policy Optimization

Найдено записей: 3

#Group Relative Policy Optimization14.07.2025

MMSearch-R1: Революция в мультимодальном поиске в LMM с помощью обучения с подкреплением

MMSearch-R1 представляет собой систему обучения с подкреплением, которая позволяет большим мультимодальным моделям эффективно и избирательно выполнять поиск по запросу, улучшая точность и снижая нагрузку на систему поиска.

ЧИТАТЬ →

#Group Relative Policy Optimization06.07.2025

Новый метод Meta и NYU: Полуонлайн обучение с подкреплением для улучшения выравнивания LLM

Meta и NYU разработали полуонлайн метод обучения с подкреплением, который балансирует офлайн и онлайн подходы для улучшения выравнивания больших языковых моделей и повышения их производительности в инструкциях и математике.

ЧИТАТЬ →

#Group Relative Policy Optimization10.05.2025

Microsoft представила ARTIST: RL-фреймворк для LLM с агентным рассуждением и динамическим использованием инструментов

'Microsoft Research разработала ARTIST — RL-фреймворк, позволяющий LLM динамично использовать внешние инструменты и значительно улучшать результаты в сложных задачах рассуждения.'

ЧИТАТЬ →